# Taller de introducción a R

Este taller está diseñado para intruducir en lenguaje R a los y las estudiantes de distintas áreas, sin necesidad de un conocimiento previo de programación.

## 1. Ambiente de trabajo

R es un lenguaje de programación con uso orientado a estadística. Para hacer uso de R es necesario una plataforma de visualización, para lo cual existen diversas alternativas. Para efectos de este taller y de los posteriores, se hará uso de Google Colab (plataforma gratuita y online).

## 2. Operaciones básicas

La característica más básica de R es que puede ser usado como calculadora. Las operaciones básicas se pueden realizar mediante los símbolos tradicionales:

\* (multiplicación)

\- (resta)

\+ (suma)

\: (división)

In [None]:

valor=c(1,2,3)
valor1=c(1,2,3)
valor+valor1

In [None]:
# Suma, resta, multiplicación y división de dos números cualquiera

2.1 + 3.1

4.1 - 9.2

1.21 * 0.32

100 / 5

## 3. Asignación de valores

R considera operadores que permiten asignar valores a un objeto, es decir, "guardar el número con un nombre". Hay dos opciones, para esto, <- o =. Es importante que el nombre de la variable colo incluya carácteres alfa-numéricos y el punto (.). Los nombres no pueden incluir espacios en blanco o comenzar conun número.

In [None]:
# Guardamos el resultado de la siguiente suma en un objeto llamado "valor"
valor = 2 + 3

El valor queda guardado en el objeto llamado valor, sin embargo, no se visualiza. Para visualizar el valor guardado, se debe escribir el nombre del objeto y ejecutar la celda.

In [None]:
valor

También es posible ejecutar todo en una misma celda de código.

In [None]:
# Si escribo otra varible llamada "valor", el resultado anterior se pierde
valor = 3 + 4
valor

También es posible guardar dos valores en objetos, y operarlos utilizando los nombres de los objetos.

In [None]:
x = 4
y = -2.3
x*y

Otras de las operaciones básicas en R se ejecutan de la siguiente manera. Algunos de estas requieren el uso de funciones de R, el argumento de dichas funciones es el número en cuestión.

In [None]:
x = 4

# Pontencias
x^2
x^3

# Raíz cuadrada
sqrt(x) # Función de la raíz cuadrada

# Logaritmo
log(x) # Función de logaritmo

# Valor absoluto
y = -5
abs(y) # Función de valor absoluto

# Factoeial
factorial(x) # Función de factorial

## 4. Tipos de datos

Lo números no son los únicos tipos de datos que pueden ser asignado a objetos, además, hay varios tipos de objetos.

Dentro de los tipos de datos que podemos guardar veremos dos:

- Números
- Caracteres: palabras o números entre comillas.
- Faltante
- Booleano: Tiene dos opciones, verdadero (1) o falso (0).


In [None]:
# Número
x = 2.1
x

In [None]:
# Caracter
y = "Metallica"
y

In [None]:
# Valor faltante
z = NA
z

In [None]:
# Booleano
w = TRUE # o FALSE
w

## 5. Tipos de objetos

### 5.1 Vectores:
  - El comando en R para elaborar un vector es 'c( )'.
  - Corresponde a una secuencia de elementos de la misma naturaleza.

In [None]:
c(3,1,7)

In [None]:
# Secuencia de números
seq( # Comando de secuencia
  from = 0, # Desde donde comienza la secuencia
  to = 1, # Hasta donde llega la secuencia
  by = 0.1 # Incremento de la secuencia
)

In [None]:
# Secuencia de números
seq(
  from = 0, # Inicio de la secuencia
  to = 20, # Fin de la secuencia
  length = 5 # Cantidad de número que se deben generar entre el incio el final (inclusive)
)

In [None]:
# Otra opción es usar el comando ':'
# Para generar un secuencia automática de 1 en 1
2:10 # del 2 al 10
-4:0 # del -4 al 0
10:-2 #del 10 al -2

In [None]:
# Podemos consultar una posición dentro de un vector
# Generamos una secuencia de 12 números entre el 1 y el 10
# Además, lo guardamos en un objeto

ejemplo = seq(from = 1, to = 10, length = 12)

# Consultamos directamente el valor que está en la tercera posición
ejemplo[3]

In [None]:
# Podemos consultar varias posiciones al mismo tiempo
# La tercera y sexta posición en el vector
ejemplo[c(3,6)]

In [None]:
# Obervemos el vector completo de la secuencia anterior
ejemplo

In [None]:
# Podemos eliminar un elemento utilizando la posición
# Eliminamos el primer valor de la secuencia
ejemplo[-1]

In [None]:
# Podemos eliminar más de uno al mismo tiempo
# El primer, quinto y sexto valor
ejemplo[-c(1,5,6)]

In [None]:
# También es posible generar repeticiones
# Repetimos la palabra UDP 5 veces
rep(
  x = "UDP", # Número o caracter a repetir
  times = 5 # Cantidad de repeticiones
)

In [None]:
# Podemos generar repeticiones por grupo
rep(
  x = c("Hola", "Mundo"), # Vector (de números o palabras) que voy a repetir
  times = 2 # Cantidad de veces que se repite el vector completamente
)

In [None]:
# Podemos repetir cantidad de veces distintas los elementos del vector
rep(
  x = c("Hola","Mundo"), # Vector (de números o palabras) que voy a repetir
  times = c(2,3) # El primer elemento del vector se repite 2 veces y el segundo 3.
)

In [None]:
# Los vectores también se pueden operar entre si
# Lo importante es que tengan el mismo largo
x = c(1,2,3,-4,4,6)
y = c(1,4,2,0,0,-1)

# Las operaciones se realizan por orden, es decir,
# El primer elemento se suma con el primero, y así sucesivamente

# Suma
x + y

In [None]:
# Resta
x - y

In [None]:
y + 5 # A cada elemento de y le suma 5

In [None]:
# Multiplicación
x*y

In [None]:
2*x # A todos los elementos de x los multiplica por 2

In [None]:
# División
y/x

In [None]:
# Hay que tener cuidado al dividir, ya que algún denomiador puede ser cero,
# lo cual, perturba los valores de la salida
x/y

In [None]:
y/3 # A cada elemento de y lo divide por 3

In [None]:
# Es posible encontrar el valor máximo y mínimo presente en un vector de la siguiente manera
max(x) # Valor máximo en el vector x
min(y) # Valor mínimo en el vector y

In [None]:
# Es posible generar vectores de número aleatorios
# Números reales
numeros = runif(
  n = 10, # Cantidad de números
  min = 1, # Número mínimo a generar
  max = 6 # Número máximo a generar
)
numeros

In [None]:
# Si deseamos que los número sean enteros podemos redondearlos conel comando 'round( )'
round(
  numeros, # Vector de números a redondear
  digits = 0 # Cantidad de dígitos a redondear, en este caso 0 decimales
)

In [None]:
# También podemos generar números enteros de esta forma
sample(
  x =  2:9, # Intervalo de números que dese generar, del 2 al 9
  size = 10, # Cantidad de números que deseo generar
  replace = TRUE # Indica si los números a generar se pueden repetir, TRUE = si, FALSE = no
)

In [None]:
# Para calcular el largo de un vector podemos usar el siguiente comando
length(x)

## Ejercicios

1. Defina los siguientes vectores. Inténtelo hacerlo de diferentes formas.

  - s = (5, 6, 7, 8)
  - t = (8, 7, 6, 5)
  - u = (1, 1,75, 2,5, 3,25, 4)
  - v = (3, 3, 3, 3, 3, 3, 3, 3, 3, 2, 2)
  - w = (1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3)
  - x = (1, 2, 3, 4, 6, 8, 10, 12)
  - y = (1, 2, 2, 3, 3, 3, 4, 4, 4, 4)
  - z = (1, 3, 6, 10, 15, 21, 28, 36, 45, 55)

2. De
fina de 2 formas diferentes un vector que contenga todos los números pares del 1 al 100. Luego repita este proceso para obtener los números impares.

3. Concatene los vectores s y t. Luego, determine la suma total de los números dentro del vector.


### 5.2 Matrices:
  - El comando en R para elaborar una matriz es 'matrix( )'.
  - Corresponde a una tabla de dos dimensiones de elementos de la misma naturaleza (números o carácteres pero no ambos).


In [None]:
# Generamos una matriz y la guardamos en un objeto llamado 'y'
y = matrix(
  1:12, # Números con los que rellenaremos la matriz
  nrow = 4, # Cantidad de filas de la matriz
  ncol = 3, # Cantidad de columnas de la matriz
  byrow = TRUE # Indica si la matriz debe ser rellenada por filas (puede ser también por columnas)
)
y

0,1,2
1,2,3
4,5,6
7,8,9
10,11,12


In [None]:
# Si cambiamos el argumento byrow a FALSE, veremos que la matriz resultante es diferente
z = matrix(
  1:12, # Números con los que rellenaremos la matriz
  nrow = 4, # Cantidad de filas de la matriz
  ncol = 3, # Cantidad de columnas de la matriz
  byrow = TRUE # Indica si la matriz debe ser rellenada por filas (puede ser también por columnas)
)
z

0,1,2
1,2,3
4,5,6
7,8,9
10,11,12


In [None]:
# Podemos extraer un valor de la matriz indicando la fila y la columna
# Usaremos la matriz 'z'
# Consultaremos el calor que está en la segunda fila y tercera columna
z[2,3]
# El primer número siempre corresponde a la fila y el segundo a la columna

In [None]:
# Podemos consultar filas completas
# Consultaremos la primer fila, para ello, en el número de columna no ingresamos nada
z[1,]

In [None]:
# De igual manera, podemos consultar los valores de una columna completa
# COnsultaremos los valores de la tercera columna
z[,3]

In [None]:
# Es posible generar matrices, "pegando" vectores
# Es importante que los vectores tengan el mismo largo (cantidad de elementos)
x = c(1,2,3,4)
y = c(5,1,2,0)

# Podemos pergar verticalmente
cbind(x,y)

x,y
1,5
2,1
3,2
4,0


In [None]:
# U horizontalemente
rbind(x,y)

0,1,2,3,4
x,1,2,3,4
y,5,1,2,0


Las matrices se sumar, restar, mutiplicar y dividir término con término del mismo modo que los vectores.

## Ejercicios

1. Crear una matriz de 3 filas y 4 columnas con números aleatorios entre 1 y 10.

2. Acceder al elemento de la segunda fila y tercera columna

3. Genere tres vectores de 8 números aleatorios entr -2 y 4. Luego, únalos verticalmente para crear una matriz.

4. De la matriz generada en la pregunta 3, ontenga una nueva matriz que no tenga la primera columna.

4. De la matriz generada en la pregunta 3, ontenga una nueva matriz que no tenga la tercera columna. SUme esta matriz con la obtenida en la pregunta 4.


### 5.3 Factor:
  - El comando en R para elaborar una factor es 'factor( )'.
  - Es un vector de caracteres que poseen niveles de orden.

In [None]:
Toxicidad = factor(
  x = c("Alta", "Baja", "Media"), # Vector de caracteres
  levels = c(c("Alta", "Media", "Baja")) # Indicamos el orden de los caracteres según un criterio,
               # por ejmeplo de más alta a más baja toxicidad.
               # Para ello, deben ir en el orden deseado
)
Toxicidad

# En la salida, se aprecia el vector de caracteres original, junto a una glosa que indaca los niveles con los
# que se debe considerar.

# La utilidad recae en posteriores aplicaciónes gráficas que serán vistas durante el curso

### 5.4 Data frame:
  - El comando en R para elaborar un *data frame* es 'data.frame( )'.
  - Corresponde a una tabla de dos dimensiones. Las columnas pueden ser de diferente naturaleza, pero deben tener el mismo largo.


In [None]:
# Tenemos un data.frame (base de datos) que
# contiene el sexo, altura y peso
# de 6 personas (cantidad de datos por cada vector)

base = data.frame(Gender=c("M","F","M","F","M","F"),
                  Height=c(1.83,1.76,1.82,1.60,1.90,1.66),
                  Weight=c(67,58,66,48,75,55)
                 )
base

Gender,Height,Weight
<chr>,<dbl>,<dbl>
M,1.83,67
F,1.76,58
M,1.82,66
F,1.6,48
M,1.9,75
F,1.66,55


In [None]:
# Podemos consultar las dimensiones del data.frame
dim(base)
# 6 filas y 3 columnas

In [None]:
# Podemos extraer una de las columas, de igual modo que con las matrices
# Aunque, es posible usar un sufijo luego del signo peso
# Por ejemplo, queremos extraer la columna del peso

base$Weight

In [None]:
# Es posible filtrar toda la tabla en base a un criterio de alguna de las columnas
# Por ejemplo, ver solo la información de las mujeres
# Para ello  debemos escribir las codiciones antes de la coma, tal como se muestra

base[base$Gender == "F",]

# La condición expresa que el sexo debe ser femenino, el cual recordemos es un caracter,
# además, la igualdad se debe escribir con el signo '=='.

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
4,F,1.6,48
6,F,1.66,55


In [None]:
# Podemos hacer un dopble filtro.
# Podemos consultar la información de las mujeres, pero solo la altura.
# Para ello ocupamos el segundo espacio, luego de la coman. Allí, se debe
# ingresar la columna que desea extraer luedo de aplicado el filtro

base[base$Gender == "F", "Height"]

In [None]:
# Otro forma de hacerlo, es ingresando el número de la columna
base[base$Gender == "F", 2]

In [None]:
# Aquí hay otros ejemplos de condiciones y consiciones múltiples

# Información de solo mujeres y con altura mayor a 1.6
base[base$Gender == "F" & base$Height > 1.6,]

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
6,F,1.66,55


In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
base[base$Height > 1.82 | base$Weight > 55,]

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
1,M,1.83,67
2,F,1.76,58
3,M,1.82,66
5,M,1.9,75


In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
# Pero solo el sexo
base[base$Height > 1.82 | base$Weight > 55, "Gender"]

In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
# Pero solo el sexo y la altura
base[base$Height > 1.82 | base$Weight > 55, c("Gender", "Height")]

Unnamed: 0_level_0,Gender,Height
Unnamed: 0_level_1,<chr>,<dbl>
1,M,1.83
2,F,1.76
3,M,1.82
5,M,1.9


In [None]:
# Igualmente sirve
base[base$Height > 1.82 | base$Weight > 55, c(1,2)]

Unnamed: 0_level_0,Gender,Height
Unnamed: 0_level_1,<chr>,<dbl>
1,M,1.83
2,F,1.76
3,M,1.82
5,M,1.9


In [None]:
# SI tengo muchas condiciones de un mismo valor, puedo incluirlas todas al mismo
# de la siguiente manera

# Por ejemplo, filtrar solo aquellas personas con altura 66, 58 y 75
base[base$Weight %in% c(66,58,75),]

# El comando %in% verifica si cada observación (fila) de la variable elegida
# Esta dentro de las opciones dadas.

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
3,M,1.82,66
5,M,1.9,75


In [None]:
# Es posible agregar una nueva columan en un data.frame de manera directa
# Se debe tener cuidado en que tienen que tener la misma cantidad de observaciones
# que las columnas ya presentes.

base$Edad = c(35,21,34,66,61,18)
base

Gender,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Se puede eliminar una columna al igual que en matrices
base[,-2] # Eliminamos la columna 2

Gender,Weight,Edad
<chr>,<dbl>,<dbl>
M,67,35
F,58,21
M,66,34
F,48,66
M,75,61
F,55,18


Para guardar los cambios, siempre se debe sobreescribir el objeto que se utiliza, en caso contrario, lo realizado solo se proyectará en consola (justo como el último ejemplo en el que eliminó la columna 2; si consultamos la base se verá que no ha sufrido cambios).

In [None]:
base

Gender,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Es posible cambiar los nombre de la columnas
# Podemos cambiar una en específico
# Por ejemplo la primera

colnames(base)[1] = "Sexo"
base

Sexo,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# O podemos todas, dándole a R un vector con todos los nombres que debe considerar
colnames(base) = c("Gender", "Altura", "Peso", "Age")
base

Gender,Altura,Peso,Age
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Es posible revisar los nombres de las columnas con el comando 'colanmes( )'
colnames(base)

In [None]:
# Para obtener un resumen general de los datos que hay un data frame
# es posible usar el comando 'str( )'

## Ejercicios

Para este ejercicio trabajaremos con el conjunto de datos conocido como Fisher's iris data. Este conjunto nos da la medida en cm. de las variables longitud y ancho de sépalo y pétalo para un total de 150
ores de tres especies diferentes (setosa, versicolor y virginica). Para acceder a los datos en R usaremos: data(iris).

1. ¿Cuántas fi
las y columnas posee la base de datos?
2. ¿Qué nombre tienen las variables (columnas) en la base de datos?
3. ¿Cuántas
flores poseen una longitud de sépalo mayor a 5cm?
4. ¿Cuántas
flores poseen una longitud de pétalo menor a 5cm?
5. ¿Cuántas
flores poseen un pétalo más ancho que su sépalo?
6. ¿Cuál es la longitud y ancho de pétalo máximo y mínimo registrado en la base de datos para el tipo de flor "virginica"?
7. Filtre una base de datos que contenga a las especies de "virginica" y "setosa".
7. En la base incial, convierta la columna de "Especie" en factor, de tal manera de que los niveles tengan el orden: setosa, versicolor y virginica.

In [None]:
# Esta base de datos está incorporada en R
datos = iris
colnames(datos) = c("LargoSepalo", "AnchoSepalo", "LargoPetalo", "AnchoPetalo", "Especie")
datos

LargoSepalo,AnchoSepalo,LargoPetalo,AnchoPetalo,Especie
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa
